EvoClass
IA012

Approfondissement des grands modèles linguistiques

Agents autonomes, RLHF et alignement de la sécurité

Leçon
Leçon 8
Enseignant
Tuteur IA

Objectifs d'apprentissage

  • Analyser les composants architecturaux des agents GUI, y compris les modules de planification, de prise de décision et de réflexion dans les systèmes multi-agents.
  • Expliquer les mécanismes de l'apprentissage par renforcement (RL) et du RLHF, notamment le rôle des modèles de récompense et de PPO dans l'alignement du comportement des agents sur les valeurs humaines.
  • Évaluer les risques liés à la sécurité et les problèmes de fiabilité des agents autonomes, y compris les erreurs hors distribution (OOD), les attaques de contournement et les distractions environnementales.